実験5: GPT-4Vを使ってDALL-E3で画像を作る(Image to Image)
ホネホネの各要素の文章をより詳細にしたら出力結果はどうなるか?を検証する
以下のホネホネを使う
この画像を読み取り、以下の項目を抽出してそれぞれ英語で埋めてください。
この抽出結果は、画像生成AIの入力データ、つまりプロンプトとして、類似画像を生成するために使用します。
該当する要素がない場合は空欄でお願いします。例えば風景写真で人物描写が無い場合は、服装や髪型などは無視します。
また、以下の情報以外に、画像に特筆すべき要素があれば補足してください。
# この画像の詳細説明 (must be described with more than 300 words)
# この画像のコンセプト (each element must be described with more than 100 words)
・ジャンル (例:肖像画、風景、ファッション、食品、旅行など)
・被写体 (例:人物、動物、物体など)
・行動/ポーズ (例:座っている、歌っている、走っている)
・感情/表情 (例:困っている、喜んでいる)
・服装 (例:黒いスーツ、白いパーカー)
・背景 (例:空、天気、建物、山、海など)
・シチュエーション (例:時間帯、天気、季節、シーンなど)
# この画像のスタイル (each element must be described with more than 100 words)
・画風 (例:印象派、写実主義、ロマン主義など)
・技法 (例:水彩画、油絵、フラットデザイン、ピクセルアートなど)
・画質 (例:4K, 8K)
# この画像の構図 (each element should be described with more than 100 words)
・配置とバランス (例:3分割、黄金比)
・焦点と注目点
・視線と動線例: (例:リーディングライン)
・スケールと比率 (例:Forced Perspective)
・対称性と非対称性 (例:対称)
・角度と視点 (例:ワームズアイ・ビュー、バードビュー)
・色とコントラスト (例:カラーコントラスト)
・形状と線 (例:ジオメトリック)
結果
Case1. 情報量の少ないシンプルな画像
https://scrapbox.io/files/655952662b412b001c287702.png
結果
プロンプト
https://scrapbox.io/files/655b29facac7de001b532c90.png
詳細な説明のプロンプトが得られた
画像
https://scrapbox.io/files/655ad35a03dfa9001cf22277.png
ついに、さんまの形になった・・・!
過去最高の出来。
出力の揺らぎもあまりない。
実験4
https://scrapbox.io/files/655a0da297d4f2001be35a3e.png
実験3
https://scrapbox.io/files/6559848157594d001bdd0c89.png
実験2
https://scrapbox.io/files/655984cd688044001cfa5946.png
実験1
https://scrapbox.io/files/65597e1df8ce63001bb4b1a4.png
Case2. 情報量が普通の画像
https://scrapbox.io/files/65595279a251ab001b53ad25.jpg
結果
プロンプト
https://scrapbox.io/files/655b2a13cac7de001b532e8e.png
Case1より、DescriptionとStyleが短い。
画像
https://scrapbox.io/files/655ad6d9356f71001cb53dd3.png
実験2と同じような画像に。
スタイルは実験4の方が元画像に似ているが、ドレスの色合いや犬の色合いなどトータルではこちらの方が似ている
そして、出力の揺らぎがほとんどないことが驚き
これだけ詳細な説明をさせると、ほとんど同じになるということが予想される
実験4
https://scrapbox.io/files/655a146af58cf3001b510875.png
実験3
https://scrapbox.io/files/655a04c667c3d4001c0d8b8f.png
実験2
https://scrapbox.io/files/655977b17c65f9001b5fdf72.png
実験1:
https://scrapbox.io/files/655981593b8aed001c1e02b1.png
Case3. 情報量が多い画像
https://scrapbox.io/files/6559529206146d001b94d063.jpg
結果
プロンプト
https://scrapbox.io/files/655b2a2cf396e8001cbb2d0a.png
画像
https://scrapbox.io/files/655aefbdc5f9a1001c4c9d09.png
海の色がこれまでの実験の中で一番似ている
一方で、宝箱が全ての画像で見られるなど、創作もある
出力結果をみると、treasure-chest-like structureという表現が画像の詳細説明の欄であり、これを反映したと思われる
長すぎる説明は、このような副作用を生む可能性が出てきた。
実験4
https://scrapbox.io/files/655a27c1f507a3001cef543a.png
実験3
https://scrapbox.io/files/655a07bcaba1d5001b393ffe.png
実験2
https://scrapbox.io/files/65597cadf0d190001df4ba23.png
実験1
https://scrapbox.io/files/65597d7c2b412b001c29c976.png
考察
長い説明をさせる画像版ホネホネプロンプトは、概ね良好な結果となった。
特にCase1ではこれまで実現できなかった、正確な魚の表現を可能にした。
一方で、Case3で見られるように、宝箱の創作など、勝手な創造がされてしまった。
やはり画像を作る前のフィードバックの結果が、画像の出力に大きく依存する。
今度は、短い単語でどう結果が変わるか検証する。